17 古くて新しい学習心理学 はじめに ソーンダイクの「効果の法則」。学習心理学 を少しでも学んだことのある方にはおなじみの 言葉であろう。「結果として満足を伴う反応は, その刺激との結合が強められ繰り返される」, ということなどを述べた法則である。そして, トールマンの「認知地図」,「Rescorla-Wagner モデル」。いずれも学習心理学の教科書に解説 されている重要事項であるが,これらは今,学 習の基礎理論にとどまらず,最先端のデータ分 析や計算論モデリングの基盤となっている。本 稿では,具体的な研究事例を紹介しながら,そ れらの動向について紹介する。 条件づけと強化学習 イヌに「お手」を教えるといったように,動 物に新たな行動を獲得させるにはどうすればよ いだろうか。人間が「お手本」を見せてそれを 真似させようとしても,まずうまくいかない。 そこで,エサなどを強化子として動物を目的の 行動に近づけていくという,オペラント条件づ けの原理が用いられる。では,ロボットに何か の行動をさせるにはどうすればよいだろうか。 人間が作るものなのだから,所望の行動をする ようにプログラミングすればよい,と思われる かもしれない。しかしこれもなかなか容易で はない。特定の目標物に手を伸ばす運動をさせ るだけでも,複数ある関節を連携させるための 複雑な計算が必要になる。そんな手間はかけず に,動物のオペラント条件づけのように学習さ せることができないだろうか。それを実現する のが強化学習である。 強化学習は,行動の良し悪しの評価 (報酬) をもとに人工的なエージェントに行動を学習さ せるための計算手法である。例として,二つの スロットマシンの選択を繰り返す場面を考えよ う(図1a)。それぞれのスロットマシンに割り 当てられた報酬確率に従い,報酬の有無が決定 される。その確率は事前にはわからない。経験 をもとにより良い選択肢を選ぶ必要がある。基 本的な強化学習モデルでは,各行動により得ら れる行動価値を計算する。行動iを選択した場 合,次のように行動価値の更新を行う (iはス ロットマシンAまたはBのいずれかの選択): 行動 i の価値の変化量=学習率α×(実際に 得られた報酬 R -現時点での行動 i の価値) つまり,行動iをとって得られた報酬が,そ の時点での行動iの価値より大きければ,その 分,行動iの価値を増加させる。学習率αは0 以上1以下の値をとる定数である。この更新式 は,冒頭で言及したRescorla-Wagnerモデルの 基本形と等価である。行動価値をもとに,選択 する行動を決定する。基本的には行動価値の高 い行動を選べばよいのだが,価値が高いほうだ けを選ぶと,先にたまたま報酬が得られた価値 の低い選択肢ばかり選んでしまうかもしれな い。より良い選択肢を探索するために,選択は ある程度ランダムにしたほうがよい。そこで図 1cの関数で計算した確率に従って選択をする。 この関数の傾きはパラメータβで決まる。
学習の理論から強化学習,
計算論モデリングへ
名古屋大学大学院情報学研究科 准教授片平健太郎
(かたひら けんたろう) Profile─片平健太郎 2009年,東京大学大学院新領域創成科学研究科博士課程修了。博士(科学)。東 京大学進化認知科学研究センター助教,名古屋大学大学院環境学研究科准教授などを経て現職。専門は学習心理学,行動の計算論モデリング。論文はHow hierarchical models improve point estimates of model parameters at the individual level(Journal of Mathematical Psychology)など。
18 データモデリングツールとしての強化学習 モデル 強化学習は人工的なエージェントに行動を選 択させるための計算手法として研究されてきた ものであった。一方,心理学の実験において は,行動選択はヒトやその他の動物が行う。強 化学習を行動のモデルと考え,行動データから その内的過程を推定するための分析ツールと して用いることはできないだろうか。そのよう な発想で,強化学習モデルは行動の分析ツール として用いられるようになってきた。具体的に は,モデルパラメータを選択と報酬の系列デー タに適合するように推定する。図1dの対数尤 度はパラメータを動かしたときの当てはまりの 良さを表している。この対数尤度が最も高くな るパラメータ値を用いて,行動価値や選択確率 も推定することができる。 行動データからモデルパラメータ推定をする ことにどのような意義があるだろうか。その一 つとして,行動データから刺激に対する主観 的な価値が推定できるということが挙げられ る。例えば,Katahira et al.(2011)は選択の 結果として情動的な画像を呈示し,ヒトの選択 行動データから画像に対する主観的な報酬価値 Rを推定している。その結果,快画像は正の報 酬価値を持ち,不快画像は負の報酬価値を持つ が,その価値の絶対値は快画像より不快画像の ほうが大きいという非対称性があることがわ かった。つまり,快画像を求めるより不快画像 を避けるほうが優先されるということである。 主観的価値を選択から推定できる,という特長 は特に主観的価値を報告することができない動 図 1 強化学習モデルおよびモデルフィッティングの概要 (a)実験課題の例。この例では,参加者は二つのスロットマシンからの選択を繰り返す。スロットマシンに 割り当てられた報酬確率 (右) に従い,報酬の有無が決定される。(b-e)強化学習(α =0.3, β =2.0)によ りこの課題を 30 試行繰り返した例。報酬をもとに行動価値を更新し(b),その行動価値に基づきソフトマッ クス関数(c)で各選択肢の選択確率を計算する(e)。与えられた行動系列をモデルが生成する確率に対数 をとったものが対数尤度である(d)。最尤推定では,この対数尤度を最大化するようなパラメータの組み合 わせを推定値として用いる。 : 報酬あり試行 : 選択した試行 䝬䝅䞁 䛔䛪䜜䛛䜢 㑅ᢥ 㻗㻌㻝㻜㻜 䜎䛯䛿 㻜㻌 䝇䝻䝑䝖䝬䝅䞁㻭㻌䊻䚷㻤㻜㻑䛷㻝㻜㻜 䝇䝻䝑䝖䝬䝅䞁㻮㻌䊻䚷㻞㻜㻑䛷㻝㻜㻜 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 選択確率 −4 −2 0 2 4 0.0 0.2 0.4 0.6 0.8 1.0 ソフトマックス関数 0.2 0.4 0.6 0.8 1.0 1 2 3 4 −76 −80 −74 −72 −70 −68 −66 −66 −64 −64 −62 −62 −60 −60 −58 −58 −56 −56 −54 * LL = −52.90 䝇䝻䝑䝖 䝬䝅䞁A 䝇䝻䝑䝖䝬䝅䞁㻭䛾㑅ᢥ☜⋡ ᑐᩘᑬᗘ スロットマシンAの選択確率 = 0.9 = 0.1 = 0.3 0 5 10 15 20 25 30 最尤推定 = 0.3 = 0.9 = 0.3 = 0.1 ᭱ᑬ᥎ᐃ್ 䝇䝻䝑䝖 B ሗ㓘☜⋡䠖 䝇䝻䝑䝖䝬䝅䞁㻭 䝇䝻䝑䝖䝬䝅䞁㻮 ⧞䜚㏉䛧ᩘ 行動価値 行動価値 0 5 10 15 20 25 30 0 5 10 15 20 25 30 ⧞䜚㏉䛧ᩘ ᐇ㦂ㄢ㢟㻌㻔㻞⭎䝞䞁䝕䜱䝑䝖ၥ㢟㻕
㻔㼍㻕㻌
㻔㼎㻕㻌
㻔㼏㻕㻌
㻔㼐㻕㻌
㻔㼑㻕㻌
19 古くて新しい学習心理学 物研究で発揮される。Mizoguchi et al.(2015) は,覚せい剤依存のモデルラットにおいて,小 報酬に比べ大報酬の報酬価値が相対的に大きく なることを報告している。その他にも強化学習 モデルのパラメータは個人特性や精神疾患と関 連づけられ,それらがどのように行動の背後に ある計算過程と対応づけられるかが議論されて いる。 認知地図とモデルベース強化学習 これまで紹介した強化学習モデルは冒頭で言 及した効果の法則を素朴に実装したものといえ る。仮に満腹になって食べ物が要らなくなって も,食べ物で強化されてきた行動をとり続けて しまう。一方,実際のヒトやそれ以外の動物 は,単にそれまで強化されてきた行動を繰り返 すだけでなく,行動の結果得られる報酬や,環 境の変化を考慮して行動することもできる。そ のような環境の変化や将来起こる事象に基づき 選択をする強化学習の枠組みは,モデルベース 強化学習と呼ばれている。ここで,モデルとは 「こうしたら次はこうなる」という,環境のモ デルであり,トールマンの認知地図を一般化し たものといえる。 近年ではヒトの行動においてはモデルベース とモデルフリーな方策は共存していると考えら れている。そのバランスを個人ごとに計測する ために用いられている課題が,図2に示す2段 階マルコフ決定課題である(Daw et al., 2011)。 この課題は,各試行2回の選択が求められる (図2a)。第1段階の選択に応じた確率で第2段 階の状態が決まる(図2a)。例えばA1を選び, 稀な遷移(30%)が起きて状態Cに遷移し,C1 を選択したとしよう。その後に報酬が得られ たので,もう一度状態Cに行きたいとする。そ の場合,次の試行では前試行と同じA1ではな く,70%で状態Cに遷移するA2を選ぶほうが よい。これが,状態遷移についての「モデル」 を利用したモデルベースな方策である。一方, モデルフリーな方策では,A1を選んだあとに 学習の理論から強化学習,計算論モデリングへ 図 2 2 段階マルコフ決定課題
(a)実験課題の構造(左)と Daw et al.(2011)のモデルにおける行動価値の計算方法(右)。
(b-c)各方策の典型的な第 1 段階の滞在確率。滞在確率は,次の試行で前試行と同じ選択肢(A1 または A2)を選択する割合として算出される。
20 報酬が得られたという理由で,もう一度A1を 選ぶ。これらの帰着として,図2b, cのような 滞在確率のパターンが見られると予想される。 成人の健常者はこれらの中間的なパターンが現 れる。一方,課題中に認知的負荷をかけた状態 や(Otto et al., 2013),衝動性の高い個人にお いてはモデルフリーの方策の比重が増すことな ど(Gillan et al., 2016),方策のバランスと個人 特性や状態,発達,精神疾患との関連が明らか にされている。 Daw et al.(2011)が提案したモデルベース 強化学習は,将来の状態遷移先の価値の最大 値をとり,それに遷移確率で重みをつけて平 均をとるという,比較的複雑な計算を要する (図2a右)。これに対し,Toyama et al.(2017) はモデルフリーな強化学習において前試行の 遷移情報を使って更新量を修飾するシンプル な計算で,図2cのパターンを説明するモデル を提案した。さらに,そのモデルはDaw et al.(2011)のモデルよりも有意に実際のヒトの 選択データに適合していた。データにより適合 するモデルが必ずしも真実を反映しているとは 限らないが,よりシンプルな原理で,かつ適合 性も高いモデルのほうが妥当性は高いといえる だろう。実際にヒトやその他の動物がどのよう な計算に基づき学習し選択をしているのだろう か。また,どのようなメカニズムで個人特性や 状態,精神疾患がその計算原理と関係するのだ ろうか。さらなる研究が望まれる。 深層学習と強化学習 今,空前の人工知能ブームである。そのきっ かけの一つは深層学習(ディープラーニング) の発展にある。深層学習は画像などの高次元情 報から学習によりパターンを抽出する方法であ るが,それと強化学習を組み合わせ,系列的な 行動選択を行う方法が開発されている。Deep Q-Network(DQN)と呼ばれるその手法は, 行動価値を深層学習により学習させるものであ る。DQNは計算機が人間のプロ棋士には勝つ ことが難しいと考えられていた囲碁でヨーロッ パチャンピオンに5戦中5勝し,人々を驚かせ た(Silver et al., 2015)。DQNは純粋に計算機 に学習をさせるために構築された計算手法であ るが,その構成要素は脳の構造を模倣した神経 回路モデルと,脳内の計算過程のモデルとして 用いられてきた強化学習である。今後,深層 学習が心理学に影響を与えることはあるだろう か。逆に,心理学の知見が深層学習の発展に貢 献できるだろうか。今後の展開が楽しみであ る。 展 望 学習心理学と最新の神経科学,計算論,人工 知能等の諸分野との関係は,依然として混沌と している。それぞれの分野での用語の対応関係 は明確ではない。心的過程の構成概念を扱う心 理学者としては,それらの概念を吟味し,整理 していくことが重要な課題である。一方で,ど こまでが学習心理学か,という線引きは難しく なっている。学習心理学自体も計算論や機械学 習等の周辺領域の新たな知見を取り入れていく ことで,さらに発展していくだろう。 文 献
Daw, N. D., et al.(2011)Model-based influences on humans' choices and striatal prediction errors. Neuron, 69 , 1204-1215.
Gillan, C. M., et al.(2016)Characterizing a psychiatric symptom dimension related to deficits in goal-directed control. eLife, 5 , e11305.
Katahira, K., et al.(2011)Decision-Making Based on Emotional Images. Front. Psychol., 2 , 311.
Mizoguchi, H., et al.(2015)Insular neural system c o n t r o l s d e c i s i o n - m a k i n g i n h e a l t h y a n d methamphetamine-treated rats. Proc. Natl. Acad. Sci. USA, 112 , E3930-E3939.
Otto, A. R., et al.(2013)Working-memory capacity protects model-based learning from stress. Proc. Natl. Acad. Sci. USA, 110 , 20941-20946.
Silver, D., et al.(2016)Mastering the game of Go with deep neural networks and tree search. Nature, 529 , 484-489.
Toyama, A., et al.(2017)A simple computational algorithm of model-based choice preference. Cogn. Affect. Behav. Neurosci ., in press.